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基于 电子 病历 利用 支持 问 量 机 构建 疾病 


预测 模型 


张 轮 : 张 蛤 ” 尹 珍 下 : 赵 玉 虹 ? 
!( 中 国医 科大 学 医学 信息 学 院 沈阳 110122) 
?( 中 国医 科大 学 附属 盛 京 医院 ”沈阳 110004) 


以 重度 急性 胰腺 炎 早 期 预警 为 例 


摘要 : 【 目的 ] 为 构建 疾病 预测 模型 ， 以 重度 急性 胰腺 炎 早 期 预警 为 例 , 提出 一 种 基于 支持 向 量 机 的 疾病 预测 模型 
构建 方法 。[ 方法 】 基于 支持 向 量 机 LIBSVM3.11, 采用 优化 后 的 径 向 基 核 函数 产生 的 分 类 屁 , 同时 结合 统计 学 单 


因素 及 多 因素 Logistic 回归 分 析 方 法 ,进行 特征 变量 选 


取 , 提出 一 种 简单 易 行 的 重度 急性 胰腺 炎 早 期 预警 模型 。 


【 结果 】 所 构建 重度 急性 胰腺 炎 预 警 模型 准确 率 达 70.37%。 最 终 纳 入 模型 变量 包括 白细胞 计数 、 血 清 钙 离子 、 血 
清 脂肪 酶 、 收 缩 压 、 和 舒张 压 及 胸腔 积 液 。[ 局 限 ] 样本 量 有 限 ,主要 采用 支持 向 量 机 构建 疾病 预测 模型 ， 未 来 可 建 
立 系统 ,突出 临床 应 用 价值 。[ 结论 】 支持 向 量 机 可 构建 疾病 预测 的 最 优 模型 ,进一步 建立 系统 ,辅助 临床 决策 。 


关键 词 : 支持 向 量 机 ”重度 急性 胰腺 炎 ”预警 
分 类 号 : TP393 G35 


临床 决策 


1 3 引 

电子 病历 (Electronic Medical Record，EMR) 即 基 
于 计算 机 的 病人 记录 ,是 对 医疗 数据 进行 电子 化 保 
存 、 管 理 、 传 输 和 重 现 , 主要 包括 门诊 EMR 、 住 院 


了 中 


疗 资源 占用 , 解决 医疗 拥挤 等 问题 。 
2 相关 研究 


目前 多 数 临床 决策 支持 应 用 研究 包括 疾病 诊断 、 
危险 因素 或 复发 与 否 等 预测 。 例 如 : 心力 衰竭 诊断 金 


EMR 、 和 急诊 EMR, 其 中 住院 EMR 由 病历 首页 、 人 院 
记录 、 病 程 记 录 、 手 术 ( 医 嘱 ) 记 录 单 、 检 查 报告 单 等 
组 成 叫 。 基 于 EMR 可 获得 准确 、 完 整 的 医疗 资料 , 提 
示 和 警示 医疗 人 员 ， 提供 临床 决策 支持 。 电 子 病历 的 
核心 价值 在 于 临床 决策 支持 ， 即 应 用 统计 分 析 、 数 据 
挖 气 等 方法 , 辅助 临床 决策 ， 对 疾病 早期 预警 或 特定 
结局 事件 发 生 监 测 起 到 重要 作用 。 

随 着 医疗 卫生 信息 化 的 发 展 , 电子 病历 辅助 临床 
决策 功能 需求 增多 。 建 立 临 床 决策 支持 系统 ， 可 减少 
临床 实践 过 程 中 误诊 或 漏诊 的 出 现 , 同时 还 可 减少 医 


标准 的 制定 站、 阿尔 兹 海 默 病 进 展 预 测 目 、 心 肺 缀 停 或 
死亡 事件 发 生 预 测 外 以 及 传染 病症 状 监 测 系 统 的 创建 中 
等 。 虽 然 此 类 研究 近年 来 发 展 速 度 较 快 , 然而 多 数目 
的 在 于 制定 临床 标准 , 或 者 是 已 有 预测 方法 的 比较 评 
佑 及 新 预测 方法 的 提出 , 并 没有 完全 与 临床 实际 应 用 
接轨 。 真 正 的 辅助 临床 决策 , 不 仅仅 是 建立 预测 模型 
或 评判 预测 方法 ， 而 是 在 于 如 何 提高 医生 工作 质量 ， 
例如 缩短 诊疗 时 间 、 避 免 过 度 医 疗 、 减 少 医疗 差错 等 。 

常用 的 决策 方法 有 机 需 学 习 、 统 计 分 析 及 规则 归 
纳 法 等 ,机 需 学 习 以 支 持 向 量 机 (Support Vector 
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的 研究 成 果 之 一 。 
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Machine, SVM)、 人 工 神经 网 络 为 主 。 其 中 , Kim 等 外 
分 别 基于 人 工 神经 网 络 和 SVM 建立 晚期 前 列 腺 癌 术 
前 预测 模型 ; Kim 等 中 基于 SVM 建立 乳腺 瘤 复发 预测 
模型 ; 吕 奕 等 外 基于 SVM 提出 一 有 效 的 肠 癌 肝 转 移 预 
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_ 记 上 文 


(1) 数据 下 载 收 集 : 确定 研究 变量 及 结局 变量 指 
标 。 根 据 EMR 首页 疾病 ICD 编码 , 查询 下 载 相应 疾 
病 EMRs, 下载 内 容 包含 首次 病程 记录 、 实 验 室 检验 报 
告 等 。 而 后 根据 纳入 排除 标准 纳入 符合 标准 的 病历 。 


测 模型 。 支 持 向 量 机 是 由 Vapnik 等 提出 的 一 套 学 习 算 
法 ,是 寻找 稳健 分 类 模型 的 一 种 代表 性 算法 外 ,针对 不 
同 领域 、 不 同类 型 数据 (医学 数据 、 金 融 数据 、 生 物 数 
据 等 ) 有 研究 者 把 SVM 和 其 他 分 类 方法 进行 预测 模 
型 的 性 能 比较 , 结果 发 现 SVM 算法 在 分 类 性 能 、 泛 化 
能 力 、 建 模 计算 量 等 方面 具有 明显 优势 1 中 SVM 的 基 
本 思想 是 定义 最 优 线性 超 平面 ,进而 基于 Mercer 核 展 
开 定 理 , 通过 非 线 性 映射 4， 把 样本 空间 映射 到 一 个 高 
维 乃 至 于 无 穷 维 的 特征 空间 , 使 在 特征 空间 中 可 以 应 
用 线性 学 习 机 的 方法 解决 样本 空间 中 的 高 度 非 线性 问 
题 站 。 近 年 来 ,， 随 着 SVM 核 函 数 的 对 人， 医学 领域 中 
越 来 越 多 的 临床 决策 研究 者 开始 应 用 SVM 构建 预测 
模型 。 疾 病 预 测 模型 建立 本 质 上 是 一 个 分 类 问题 。 疾 
病 预测 分 类 具有 样本 数量 有 限 、 维 数 较 高 等 特点 , 原 
理 上 符合 SVM 的 适用 条 件 ,因为 SVM 作为 一 种 专门 
针对 小 样本 的 算法 , 既 不 同 于 基于 大 数 定律 的 传统 统 
计 方 法 , 同时 也 不 同 于 其 他 机 带 学 习 方法 如 人 工 神 经 
网 络 等 要 求 大 样本 数据 ， 且 会 出 现 网 络 结构 难以 确 
定 、 过 学 习 、 欠 学 习 、 学 习 时 间 长 等 问题 。 本 研究 基 
于 电子 病历 首次 病程 记录 和 实验 室 检验 数据 , 应 用 文 
持 向 量 机 构建 重度 急性 胰腺 炎 疾 病 预测 模型 ， 旨 在 提 
出 一 种 简单 易 行 的 早期 预警 模型 ， 以 期 进一步 建立 系 
统 ,辅助 临床 决策 。 


3 ”研究 框架 与 方法 


疾病 预测 主要 涉及 疾病 诊断 、 进 展 或 复发 等 预测 
实质 上 就 是 “是 ”与 “ 否 ” 的 二 分 类 问题 。 基 于 支持 向 量 
机 构建 疾病 预测 模型 具体 流程 如 图 1 所 示 : 


纳入 标准 
排除 标准 


数据 收集 与 预 处 理 


, 
皇 立 分 类 观测 本 型 | “| 竺 生变 旺 选择 | 利用 建立 的 本 型 进 行 天 


图 1 基于 支持 向 量 机 构建 疾病 预测 模型 流程 


EMR 纳 入 
[ 


现代 图 书 情报 技术 


将 纳入 病历 分 为 训练 集 、 测 试 集 。 

(2) 数据 预 处 理 : 如 若 病 历 下 载 内 容 包 括 首次 病 
程 记 录 , 则 需 对 文本 进行 汉语 分 词 处 理 , 可 应 用 中 国 
科学 院 计算 技术 研究 所 的 NLPIR 软件 00 对 各 EMR 首 
次 病程 记录 的 症状 特征 词 初步 分 词 ; 经 初步 分 词 后 ， 
如 车 需要 ,可 基于 规则 和 专业 词典 针对 词义 否定 识别 
进行 分 词 调整 ; 调用 NLPIR 软件 程序 抽取 所 调整 症状 
特征 词 (关键 词 ) 核心 代码 如 下 所 示 : 

{ 


int nCount = NLPIR ImportUserDict(““userdic.txt””); 
NLPIR FileProcess(“Test.txt”, “Result.txt””, 1); 
sResult=NLPIR_ GetFileKeyWords(“‘test.txt””); 
printf(“Keywords are:\n%s\n”’,sResult); 

} 


(3) 疾病 预测 模型 建立 : 基于 MATLAB2010a 平 
台 , 选用 LIBSVM3.11 工具 箱 M "进行 支持 向 量 机 分 类 
建 模 。 调 用 函数 xlsread 将 数据 集 Excel 文件 读 和 人 转换 
成 所 要 求 的 矩阵 格式 ， 如 图 2 所 示 : 


<labell> <index11>:<valuell> … <indexlm>:<valuelm> 
<label2> <index21>:<value21> ... <index2m>:<value2m> 


<label n> <index n1>:<value n1> ... <index nm>:<value nm> 
图 2 LIBSVM 所 需 数 据 格式 
其 中 label 为 样本 结局 变量 标签 ，index 为 研究 变 
量 , value 为 变量 属性 值 , 调用 函数 mapminmax 将 数据 
归 一 化 至 [-1,1], 以 统一 变量 量 纲 , 同时 简化 计算 。 
SVM 解决 非 线 性 问题 关键 在 于 引入 核 函 数 类 型 
及 参数 的 选择 。 通 过 调整 参数 t, 调整 核 函 数 类 型 ( 包 
括 线性 、 多 项 式 、 径 向 基 、sigmoid 也 数 ); 采用 网 格 搜 
索 寻 找 最 优 核 参数 (cg); 采用 最 优 参数 进行 分 类 模型 
训练 , 依据 留 一 法 计算 预测 模型 准确 率 ， 以 高 者 为 优 ， 
确定 最 终 预测 模型 及 函数 表达 式 。 核 心 代码 如 下 : 
>> bestcv = 0; 
for log2c =-5 :5, 
for log2g = -5 : 5, 
cmd= [-v 5 -cv num2str(2^og2c), ' -g ', num2str(2^log2g)]:; 


cv = svmtrain(aptr_label, aptr_instl, cmd); 
让 (cv >= bestcv)， 


bestcv = cvV; 

bestc = 2^log2c; 

bestg = 2^log2g; 

end 

fprintf('%g %g %g (best c=%g, g=%g, rate=%g)\n', log2c, log2g, 
cv, bestc, bestg, bestev); 

end 

end 

>> model = svmtrain(aptr label, aptr instl,'-t -c -g ); 


>> [predict label,accuracy]=svmpredict(apte_label,apte_inst,model); 

(4) 特征 变量 选取 : 依据 数据 分 布 情况 选用 不 同 

方法 进行 单 因 素 统 计 学 分 析 ( 独 立 样 本 T 检验 或 双 样 

本 Kolmogorov-Smirnov 检验 或 卡 方 检 验 ) 初 步 筛 选 变 

量 ; 而 后 将 了 P 值 小 于 0.2 的 变量 纳入 Logistic 回归 分 析 ， 
选取 最 终 高 预测 性 能 变量 , P 一 0.05 具有 统计 学 意义 。 

(5) 疾病 预测 模型 再 建立 : 依据 所 选取 特征 变量 ， 


研究 选用 出 院 诊断 重度 急性 胰腺 炎 与 否 作为 结局 变量 。 

(4) 数据 预 处 理 

研究 中 所 纳入 变量 包括 4 项 分 类 变量 ， 即 “是 否 神 
清 ”“ 是 否 器 官 衰竭 ” “是否 胰腺 坏死 "、“ 是 否 存在 
胸腔 积 液 ” 以 文字 描述 形式 在 首次 病程 记录 中 出 现 ， 
需 进 行 汉语 分 词 处 理 。 将 纳入 样本 按 3 : 1 分 为 训练 集 
人 C=242) 和 测试 集 a=81)， 针 对 训练 集 NLPIR 软件 初 
步 分 词 处 理 各 EMR 首次 病程 记录 的 病例 特点 , 包括 : 
现 病史 、 既 往 史 、 体 格 检查 辅助 检查 。 需 向 NLPIR 分 
词 软件 中 添加 用 户 词典 , 包括 : ICD-10 编码 对 应 术语 ， 
中 文 MeSH 主题 词 ( 款 目 词 ), 中文 数据 库 中 相应 主题 
词 、 关 键 词 ， 对 添加 的 预测 指标 词 进行 关键 词 标 记 
(Key); 经 初步 分 词 后 ,基于 规则 (人 工 制定 ) 和 专业 词 
典 (AP 诊 治标 准 中 标准 术语 ) 针 对 词义 否定 识别 进行 分 


再 次 基于 SVM 构建 疾病 预测 模型 比较 预测 性 能 前 
后 是 否 有 所 提高 。 


4 研究 过 程 


4.1 分 类 模型 建立 

(1) 研究 对 象 

随机 抽取 辽宁 省 某 医 院 去 识别 化 的 2013 年 1 月 至 
2015 年 3 月 主 诊 断 为 急性 胰腺 炎 (Acute Pancreatitis， 
AP) 的 电子 病历 323 例 ,其 中 非 重度 203 例 、 重 度 120 
例 。 纳 入 标准 为 : 住院 病例 ; 出 院 诊断 中 主 诊断 为 急性 
胰腺 炎 ; 腹痛 发 作 时间 小 于 30 天 。 排 除 标准 为 : 转院 、 
二 次 人 院 病 例 ; 慢性 胰腺 炎 、 胰 腺 肿瘤 ; 所 研究 变量 数 
据 不 全 。 

(2) 研究 变量 

参考 Up To Data 临床 顾问 数据 库 中 中 列 出 的 AP 
严重 程度 危险 因素 , 最 终 选 取 的 研究 变量 (n=20) 包 括 : 
年 龄 、 白 细胞 计数 、 红 细胞 比 积 、 尿 素 、 肌 酥 、K、 
Na*、Ca”*、 血 清 淀粉 酶 、 血 清 脂肪 酶 、 体 温 、 心 率 、 
呼吸 频率 、 血 压 ( 收 缩 压 /舒张 压 )、 腹 痛 发 作 时 间 ， 以 
及 是 否 神 清 、 是 否 器 官 衰竭 、 是 否 胰腺 坏 、 是 否 有 胸 
腔 积 液 存在 。 

(3) 结局 变量 

根据 国际 AP 专题 研讨 会 最 新 修订 的 AP 分 级 和 分 
类 系统 ,AP 可 分 为 三 级 : 轻 度 AP(Mild Acute Pancreatitis， 
MAP) 、 中 度 AP(Moderately Severe Acute Pancreatitis, 
MSAP)、 重 度 AP(Severe Acute Pancreatitis, SAP)094。 本 


词 调整 ; 调用 NLPIR 软件 抽取 所 调整 疾病 严重 程度 特 
征 词 (描述 上 述 4 项 分 类 变量 ), 标记 诊断 结果 (是 否 
SAP); 针对 测试 集 : 初步 分 词 、 分 词 调 整 、 特 征 词 抽 
取 步 又 细节 除 NLPIR 软件 添加 用 户 词典 外 ,其 余 相 
同 。 测试 集中 向 NLPIR 用 户 词 典 中 男 外 添加 训练 集中 
所 抽取 的 特征 词 。 

(5) 建立 分 类 预测 模型 

基于 训练 集 数据 建立 上 述 20 个 变量 与 结局 变量 间 
的 分 类 预测 模型 ， 再 基于 测试 集 计 算 所 建立 模型 预测 
准确 率 。 本 研究 选用 默认 参数 值 ， 分 别 选择 不 同 的 核 
函数 进行 分 类 建 模 。 预 测 性 能 如 表 1 所 示 : 

表 1 不 同 核 函 数 分 类 预测 性 能 


核 函 数 C g V sv bsyv trA teA 
线性 1 / 242 179 171 69.83% 67.90% 
多 项 式 1 0.05 242 182 178 60.33% 69.14% 
径 向 基 (RBF) 1 0.05 242 183 178 59.09% 70.37% 
sigmoid 1 0.05 242 184 176 62.81% 62.96% 


( 注 : v: 交叉 验证 折 数 ; sv: 支持 癌 量 数 ; bsv: 边界 支持 向 量 数 ; 
trA: 训练 集 准 确 率 , teA: 测试 集 准 确 率 。) 


选用 径 向 基 核 隐 数 , 结合 网 格 搜索 和 交 义 验证 方 
法 选择 最 优 参数 ， 预 测 性 能 如 表 2 所 示 : 
表 2 ， 径 向 基 参 数 优化 前 后 预测 性 能 


方法 CE g V SV bsv trA teA 
未 优化 1 0.05 242 183 178 59.09% 70.37% 
网 格 搜 索 16 0.0625 242 175 159 69.01% 67.90% 


( 注 v: 交叉 验证 折 数 ; sv: 支持 向量 数 ; bsv: 边界 支持 向 量 数 ; 
trA: 训练 集 准 确 率 , teA: 测试 集 准 确 率 。) 
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(6) 特征 变量 选取 性 能 变量 。 采 用 SPSS 19.0 进行 统计 学 分 析 。 变 量 得 
对 纳入 研究 变量 进行 特征 变量 选取 , 确定 高 预测 。” 选 结果 如 表 3 所 示 : 


表 3 单 因 素 分 析 结 果 


变量 缩写 是 否 SAP t(p) 是 否 SAP z(p) 是 否 SAP x? (p) 
年 龄 Y 0.313(0.755) / / 
白细胞 计数 WBC —4.784(0.000)* / / 
红细胞 比 积 HCT -0.528(0.598) / / 
钾 K+ 0.114(0.909) / / 
让 缩 压 SBP —1.342(0.181)* / / 
尿素 Urea / 1.425(0.035) / 
肌 本 Cr / 0.518(0.951) / 
钠 Nat / 1.164(0.133)* / 
钙 Ca2+ 2.972(0.000)* / 
清 淀 粉 酶 AMY / 1.270(0.080)* / 
清 脂肪 酶 LPS / 2.043(0.000)* / 
体温 下 / 1.317(0.062)* / 
心率 P / 2.043(0.000)* / 
呼吸 频次 R / 0.800(0.544) / 
舒张 压 DBP / 1.879(0.002)* / 
复 痛 发 作 时 间 / / 1.133(0.153)* / 
器 官 衰竭 OF / / **(0.018)* 
精神 状态 / / / 0.581(0.446) 
夷 腺 坏死 PN / / **(0.372) 
向 腔 积 液 PE / 14.238(0.000)* 
( 注 : 若 两 类 样本 数据 为 连续 型 变量 上 且 均 服从 正 态 分 布 , 单 因素 分 析 选 用 T 检验 ; 车 两 类 样本 数据 为 连续 型 变量 但 不 均 服从 正 态 分 布 ， 


单 因素 分 析 选 用 Kolmogorov-Smirnov 检验 ; 车 两 类 样本 数据 为 分 类 变量 , 单 因素 分 析 选 用 卡 方 检验 ; *: 单 因素 分 析 p=0.2, 纳入 Logistic 
归 分 析 ; **: 采用 Fisher’s 精确 检验 。) 


经 单 因素 分 析 纳 入 Logistic 回归 分 析 的 变量 有 白 
细胞 计数 (WBC) 、 收缩 压 [SBP)、 尿 素 (Urea) 、 钠 (Na )、 
钙 (Ca20) 、 体 温 (T) 、 心 率 (pD)、 舒 张 压 DBP) 、 血 清 淀粉 其 中 ,|lxrx|| 为 二 范 数 距离 , n 代表 支持 向 量 的 个 
酶 (AMY)、 血 清 脂肪 酶 (LPS)、 腹 痛 发 作 时 间 、 器 官 衰 。 ” 数 即 180; 对 于 每 一 个 i: w=model.sv_coef(i)， 即 支持 
竭 (OF)、 胰 腺 坏死 (PN)、 胸 腔 积 液 (PE)。 经 Logistic ”向 量 的 系数 , x=model.SVs(i,:)， 即 支持 向 量 和 矩阵 。X 是 
回归 分 析 ， 最 终 纳入 特征 变量 有 : 白细胞 计数 、 血 清 钙 ， 符 项 测 样本 , gamma 是 参数 g。 

离子 、 血 清 脂肪 酶 、 收 缩 压 、 和 舒张 压 以 及 是 否 伴 有 胸 “4.2 分 类 模型 预测 性 能 评价 


n 
Predict y= by Wi exp( 一 gamma || xi 一 X | 一 oa (2) 


i=] 


腔 积 液 。Logistic 回归 方程 如 公式 (1) 所 示 : 采用 测试 集 数 据 对 预测 模型 的 准确 率 进行 客观 评 
P=1/{1+exp[-(4.767+0.126"WBC’ -3.142’CA’+0.001°LPS’— 估 , 其 中 SAP 类 设 为 正 类 、 非 SAP 类 设 为 负 类 , 使 用 
0.027’SBP’+0.059"DBP’ -2.157°PE’)]} (1) 准确 率 衡量 模型 预测 性 能 。 计 算 公 式 如 下 : 
(7) 分 类 预测 模型 再 建立 准确 率 (A) =( 真 正 + 真 负 )/ 总 样本 数 G) 
选用 径 向 基 核 函数 ,结合 网 格 搜索 和 交叉 验证 方 本 研究 测试 集 81 个 样本 中 , 正 类 样本 数 30, 负 类 


法 选择 最 优 参数 。e 最 优 值 为 2，g 最 优 值 为 1, 模型 支 ” 样本 数 51， 其 中 真正 样本 数 14, 假 负 样本 数 16, 假 正 
持 向 量 数 为 180, 训练 集 和 测试 集 准 确 率 分 别 为 样本 数 8, 真 负 样 本 数 43 。 计 算得 准确 率 (A) 为 
65.29% 、70.37%。 最 终 决 策 函 数 如 下 : 70.37%。 
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4.3 对比 实验 

另 选 用 Logistic 回归 分 析 、 决 策 树 和 人 工 神 经 网 
络 方法 进行 对 比 实验 。 训 练 集 、 测 试 集 样本 同 SVM 
建立 模型 所 用 。 采 用 WEKA3.7.13 软件 包 实 现 上 述 算 
法 , WEKA 是 一 基于 Java 语言 编写 的 数据 挖掘 机 带 学 
习 软 件 , 包括 完整 的 数据 处 理工 具 、 学 习 算 法 和 评价 
方法 中 。 就 分 类 问题 ,可 选择 不 同 分 类 算法 ( 贝 叶 斯 、 
决策 树 多 层 感 知 器 、 支 持 向 量 机 等 ) 建 立 不 同 分 类 器 。 
本 文 分 别 选择 “Classifier” 下 “Logistic”、“J48”、 
“Multilayer Perceptron” 实 现 Logistic 回归 分 析 、 决 策 树 
和 人 工 神经 网 络 算法 ,选择 默认 参数 ， 对 于 训练 集 同 
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数 优化 前 后 对 比 可 知 , 参数 优化 不 仅 能 够 提高 模型 预 
测 准确 率 ,同时 还 可 以 减少 支持 向 量 个 数 ， 从 而 简化 
预测 函数 。 

基于 SVM 所 建立 的 SAP 预测 模型 ， 其 预测 准确 
率 较为 理想 , 说 明 支 持 向 量 机 方法 可 用 于 建立 疾病 预 
测 模 型 ,通过 核 函数 选择 和 参数 寻 优 可 以 对 模型 预测 
性 能 进行 优化 。 支 持 向 量 机 所 建立 模型 虽 具 有 较 好 预 
测 性 能 , 但 在 临床 实际 中 模型 中 变量 不 一 定 都 与 预测 
结局 高 度 相关 甚至 相关 ， 因 此 模型 建立 后 特征 变量 选 
择 尤为 重要 [09。 

根据 数据 分 布 不 同 针对 各 分 布 数 据 选择 不 同 单 


样 采用 留 一 法 建立 模型 。 最 终 通 过 分 类 模型 的 评估 量 
化 度量 模型 预测 性 能 。 三 种 方法 与 SVM 建 模 后 筛选 
特征 变量 后 再 建 模 预 测 准确 率 比 较 如 表 4 所 示 : 

表 4 不 同方 法 预测 准确 率 比较 


方法 V trA teA 
Logistic 242 95.87% 62.96% 
决策 树 242 99.59% 62.96% 
人 工 神 经 网 络 242 97.52% 64.20% 
SVM 242 65.29% 70.37% 


( 注 : v: 交叉 验证 折 数 ; rA: 训练 集 准确 率 ,teA: 测试 集 准确 率 ) 
5 结果 及 讨论 


由 表 1 可 知 , 不 同 核 函数 所 对 应 的 分 类 模型 的 预 
测 准 确 率 存在 一 定 的 差别 , 针对 测试 集 数 据 ， 本 实验 


因素 分 析 方 法 ,目的 在 于 初步 筛选 变量 , 吻 除 非 高 
度 相关 变量 或 者 某 些 同 效 变量 , 同时 减少 进入 
Logistic 回归 分 析 所 需 样 本 数 。 所 选 变 量具 体 从 AP 
炎 性 反应 、 特 征 酶 变化 及 伴 发 症 影响 AP 严重 程度 
进展 。 基 于 所 选 变量 再 建 预 测 模型 ， 预 测 模型 准确 
率 较 前 提高 。 说 明基 于 特征 选取 简化 数据 维 数 ， 不 
仅 能 够 摆脱 与 预测 任务 不 相关 的 数据 、 显 著 减 少 所 
需 的 训练 集 样 本 数量 ， 同 时 还 能 够 提高 模型 预测 
性 能 。 

在 对 比 实验 中 ,如 表 4 所 示 ，Logistic 回归 分 析 、 
决策 树 和 人 工 神经 网 络 三 种 方法 , 训练 集 准确 率 较 
SVM 高 , 但 测试 集 准确 率 均 较 SVM 低 。 原 因 在 于 此 
三 种 方法 在 构建 模型 时 ， 以 经 验 风险 最 小 为 原则 ， 可 
能 存在 过 拟 合 的 现象 。 疾 病 预 测 模型 的 建立 最 终 问 题 


中 多 项 式 核 函数 和 径 癌 基 核 函数 的 预测 准确 率 较 高 ， 
且 支 持 向 量 的 个 数 较 为 理想 。 本 实验 选用 SVM 构建 
重度 急性 胰腺 炎 早 期 预警 模型 ,是 由 于 SVM 基于 核 
函数 实现 升 维 ， 可 解决 非 线 性 分 类 和 回归 问题 ; SVM 
的 最 终 决策 函数 只 由 少数 的 支持 向 量 决定 ， 计 算 的 复 
杂 性 取决 于 支持 向 量 数 ， 而 不 是 纳入 的 研究 变量 数 ; 
相 较 于 其 他 方法 , 建立 SVM 模型 所 需 的 人 为 干预 少 , 
可 保证 模型 的 客观 性 , 因此 SVM 常用 来 解决 医疗 数 
据 分 类 和 回归 建 模 问 题 。 应 用 SVM 解决 非 线性 问题 
多 选用 径 向 基 葡 数 作为 核 函数 。 原 因 是 其 适合 非 线 性 
关系 ; 其 模型 复杂 度 较 好 , 优 于 多 项 式 ; 其 数值 计算 
易 实 现 。 选 用 网 格 搜索 和 交叉 验证 的 参数 寻 优 方法 ， 
虽然 所 得 结果 不 一 定 是 理论 上 的 最 优 , 但 也 能 够 满足 
一 定 条 件 下 的 最 优 。 本 实验 选用 径 向 基 核 函数 ,并 结 
合 网 格 搜索 和 交叉 验证 方法 选择 最 优 参数 。 由 表 2 参 


是 寻找 稳健 分 类 模型 ,SVM 作为 一 种 以 结构 风险 最 小 
化 原理 为 基础 的 算法 ,权衡 训练 样本 的 平均 预测 误差 
与 模型 的 复杂 度 ， 以 经 验 风 险 和 置信 区 间 的 和 最 小 为 
目标 , 所 建立 的 分 类 模型 具有 较 好 的 鲁 棒 性 。 因 此 测 
试 集 准确 率 较为 理想 。 


6 结 语 


随 着 医院 信息 化 的 建设 , 电子 病历 其 核心 价值 即 
临床 决策 支持 将 成 为 未 来 发 展 的 方向 。 本 研究 基于 
SVM, 以 重度 急性 胰腺 炎 为 例 ， 基 于 电子 病历 构建 疾 
病 预测 模型 。 本 研究 特点 包括 : 以 重度 急性 胰腺 炎 为 
例 , 尝试 采用 文字 型 及 数值 型 医疗 数据 建立 疾病 早期 
预警 模型 ， 以 期 进一步 建立 决策 系统 ; 选用 支持 向 量 
机 建立 预测 模型 后 结合 统计 学 分 析 方法 得 选 特征 变 
量 ， 而 后 再 基于 特征 变量 建立 最 终 预 测 模型 ， 提 高 预 
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测 准 确 率 的 同时 简化 模型 。 研 究 也 存在 不 足 ， 表 现在 
临床 应 用 方面 。 在 今后 的 研究 中 , 将 进一步 根据 所 建 
立 模 型 创建 决策 系统 ,突出 其 临床 应 用 价值 。 此外， 以 
临床 需求 为 出 发 点 , 增加 样本 数 , 应 用 决策 方法 构建 
疾病 预测 模型 ， 并 且 如 何 服务 于 临床 ,也 是 从 事 临 床 
决策 支持 研究 者 应 共同 努力 的 方向 。 
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Building Disease Prediction Model Using Support Vector Machine 
Case Study of Severe Acute Pancreatitis 


Zhang Ye! Zhang Hanl Yin Bincan Zhao Yuhong’ 
! (Department of Medical Informatics, China Medical University, Shenyang 110122, China) 
“Shengjing Hospital of China Medical University, Shenyang 110004, China) 


Abstract: [Objective] This study developed a disease prediction model based on the support vector machine, using 
electronic medical records of the Severe acute pancreatitis patients. [Methods] We first adjusted the kernel type and 
parameter values of the Support vector machine method to get an optimized prediction model. Then, we combined it 
with univariable and multivariable logistic regression analysis methods to Select features’ variable. Finally, we proposed 
a simplified early warning model for the severe acute pancreatitis. [Results] The new model’s prediction accuracy rate 
is 70.37%. Variables used by this model include: white blood cell count, serum calcium, serum lipase, systolic blood 
pressure, diastolic blood pressure and pleural effusion. [Limitations] Because of the small sample size, we only used 
this support vector machine method to develop the new disease prediction model. In the future, we will try to establish a 
larger examination system for the clinical trial. [Conclusions] Support vector machine can help us develop an optimal 
disease prediction model. A new system based on this model could support our clinical decision makings. 


Keywords: Support Vector Machine Severe acute pancreatitis Early warning Clinical decision 
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算 机 与 图 书馆 》，1985 年 更 名 为 《现代 图 书 情报 技术 》， 是 国内 图 书馆 学 、 情 报 学 领域 唯一 一 份 技术 性 刊物 , 连续 多 次 被 授 
予 “中 国 图 书馆 学 优秀 期 刊 "荣誉 称号 。 

期 刊 定位 面向 国内 信息 技术 领域 的 科研 人 员 ， 跨 图 书馆 学 、 情 报 学 、 信 息 科 学 等 几 大 学 科 ， 以 报道 信息 技术 的 研发 与 应 
用 为 主体 , 倡导 原创 性 科研 论文 , 同时 兼顾 应 用 实践 型 文章 。 
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